iT邦幫忙

2024 iThome 鐵人賽

DAY 3
0
AI/ ML & Data

30 Days of AI Research系列 第 3

[Day 3] Retrieval-Augmented Multimodal Language Modeling

  • 分享至 

  • xImage
  •  

Paper link | Note link | ICML 2023

整體想法

這項研究提出了首個檢索增強的多模態模型,能夠檢索和生成文本和圖像

它可以應用於各種下游任務,例如圖像生成、文本轉圖像、圖像轉文本等。

摘要

DALL-ECM3 等多模態模型不同,這項研究並未將所有知識存儲在模型參數中。

相反,它提出了一種檢索增強的多模態模型。

這種方法允許基礎多模態模型(generator)訪問由 retriever 從外部記憶源獲取的相關文本和圖像。

背景

多模態模型可以執行如從文本生成圖像、從圖像生成文本,甚至同時生成文本和圖像等任務。

這些模型大多需要大量的參數來儲存它們的知識。

最近,檢索增強語言模型(RAG)在自然語言處理(NLP)領域顯示了潛力。

給定輸入文本,RAG 模型使用 retriever 從外部記憶中獲取相關文檔,並使用 generator 根據檢索到的文檔生成預測。

作者提出一個問題,我們能否將RAG框架應用於多模態模型?

方法

這項研究提出了首個檢索增強的多模態模型,能夠檢索和生成文本與圖像

image

  • Retriever:從外部記憶中檢索相關的多模態文檔。
  • Generator:使用檢索到的文檔來對輸入文檔進行預測。

這項研究使用 CM3 Transformer 架構來構建 RAG 模型。

Causal masked multimodal model(CM3)

這是一種為多模態文檔設計的 Transformer decoder 模型。

具體而言,CM3將每個多模態文檔格式化為HTML序列,如 <img alt=[text] src=[image]>,其中 [text] 是文本標記序列,而 [image] 是由圖像標記器獲得的圖像標記序列。

image

Dense retriever

Retriever https://ithelp.ithome.com.tw/upload/images/20240803/20152821WvwRDbab3d.png 接收一個查詢 https://ithelp.ithome.com.tw/upload/images/20240803/2015282181Ac17s3Qz.png 和來自記憶 https://ithelp.ithome.com.tw/upload/images/20240803/20152821uM8MCuLJIa.png 的候選文檔 https://ithelp.ithome.com.tw/upload/images/20240803/20152821baI2EJo1cw.png,並返回一個相關性分數 https://ithelp.ithome.com.tw/upload/images/20240803/20152821654nY9ZFFy.png

https://ithelp.ithome.com.tw/upload/images/20240803/20152821iU0VkHgCP2.png

其中 https://ithelp.ithome.com.tw/upload/images/20240803/20152821QDV5lL0vOb.pnghttps://ithelp.ithome.com.tw/upload/images/20240803/201528219q9ugtOGZo.png 是查詢和記憶文檔的 encoder。

在這項研究中,https://ithelp.ithome.com.tw/upload/images/20240803/20152821QDV5lL0vOb.pnghttps://ithelp.ithome.com.tw/upload/images/20240803/20152821ZIsUH2zOKE.png 用於編碼文本和圖像內容。CLIP 被用來實現這些 encoder。

為了確定相關性分數,他們使用 maximum inner product search,然後從這個列表中抽取最終的 https://ithelp.ithome.com.tw/upload/images/20240803/201528215jUMfP7xvU.png 個檢索文檔。

檢索策略

  1. 相關性:檢索到的文檔需要與輸入序列相關。
  2. 模態:檢索包含圖像和文本的多模態文檔能提高 generator 的性能。
  3. 多樣性:確保檢索文檔的多樣性是重要的。

Multimodal generator

本研究使用CM3作為基礎模型。

CM3同時接收輸入序列 https://ithelp.ithome.com.tw/upload/images/20240803/20152821VVkVOoTvGy.png 和結果序列 https://ithelp.ithome.com.tw/upload/images/20240803/20152821jZOX5hZFBv.png

為了訓練 generator,他們優化以下損失函數:

https://ithelp.ithome.com.tw/upload/images/20240803/201528216Ze7q6tkZt.png

實驗

這項研究使用了LAION作為外部知識。

他們測試了幾個任務,例如:

  • 標題到圖像生成
  • 圖像到標題生成
  • 知識密集型多模態生成
  • 圖像填充和編輯
  • 控制圖像生成
  • 一次性和少樣本圖像分類

標題到圖像生成在MS-COCO上的表現:

image

圖像到標題生成在MS-COCO上的表現:

image

可控圖像生成的示例案例:

image

圖像編輯的示例案例:

image


上一篇
[Day 2] Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
下一篇
[Day 4] Fine-grained Late-interaction Multi-modal Retrieval (FLMR)
系列文
30 Days of AI Research31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言